Eliminación de NaN

Para el análisis EDA se procede a eliminar los valores NaN en vez de tratar estos valores, esto se realiza con la finalidad de no alterar el análisis.

Ahora contamos con 365956 observaciones.

Para poder trabajar de forma más simplificada con las variables numéricas, se agrupan de 10 en 10 para poder trabajar con ellos conjuntamente.

Análisis de variables numéricas

Mediante los histogramas de cada variable en primer lugar nos fijaremos en las variables que tienen un unico resultado. Estas variables se eliminarán ya que no otorgan información al modelo.

Representamos las variables que se observa que pueda que no den información relevante.

Observando la matriz de correlaciones y el diccionario de las variables, se observa una alta correlación entre num_actv_bc_tl, num_bc_tl y num_bc_sats, además informan practicamente de lo mismo, por lo que es redundante mantenerlas todas, eliminaremos num_bc_tl y num_bc_sats.

Las variables num_actv_rev_tl y num_rev_tl_bal_gt_0 tienen una muy alta correlación entre ellas, esto es ya que ambas explican lo mismo (cuentas revolving activas), por ello se procede a eliminar la segunda variable.

Entre las variables num_op_rev_tl y num_rev_accts tienen alta correlación, además la variable num_rev_accts (número de cuentas revolving) contiene información de num_op_rev_tl (número de cuentas revolving activas), por lo que se decide mantener la primera ya que contiene mayor información.

Por último, entre num_bc_sats y num_bc_tl existe alta correlación e interpretando ambas variables se decide mantener num_bc_tl al contener mayor información.

Para guardar el dataset con las variables óptimas para el modelo, se realizará un drop sobre el dataset inicial con todas las variables anteriormente descartadas. Esto es debido a que el dataset loans_eda_ind no cuenta con valores Na's.

Guardado del dataset

Observando la escasa variabilidad de la mayoria de los valores, consideramos que la variable no se debe tener en cuenta

Carga de base de datos joint

Eliminamos las variables que poseen más de un 50% de valores na.

Buscamos las variables categoricas dentro de las variables que nos quedan joint

Pasamos categóricas a numéricas

Para la variable mths_since_last_delinq, que indica los meses que han pasado desde la última morisidad del solicitante, se observa un 48 % de valores nulos, que se consideran asociados a que ese solicitante no ha tenido ninguna incidencia de pagos en su historial crediticio. A raiz de esta suposición, se considera licita la aplicación de un baremo que transforme la variable a categórica. Esta variable estará situada entre 0 y 10, donde 0 significa que no ha tenido ninguna incidencia, 1 que los meses transcurridos desde su útlima incidencia es superior a X meses, 2 entre X ...

Análisis variables numéricas

Comprobando los escasos valores que nos aportan todas las variables representadas en los anteriores histogramas optamos por su eliminación.

Aplicando el mismo criterio que con las individuales eliminaremos aquellas que nos den alta correlación.

En primer lugar observamos alta correlación entre num_bc_sats y num_sats, ambas dan información semejante sin embargo num_sats todavía aporta más, por lo que eliminaremos la primera. Sucede lo mismo entre las variables num_rev_accts y num_rev_tl_bsl_gt_0. Se eliminará la 2º ya que aporta más info. Ocurre igual entre num_rev_accts y num_op_rev_tl. Se eliminará la 2º por ofrecer menos información.